Realizaremos en análisis exploratorio de datos para conocer el comportamiento de nuestas variables.

Dividimos las variables que estaban en terminos poblacionales entre la población de cada delegación, pues en el análisis visual había indonsistencias (mostrama que entre más desempleo mayor remuneración).

¿Todas las variables aportan al índice? ¿Qué variables aportan más? ¿Qué variables aportan menos?

## 
## Call:
## omcdiag(x = df.1[c(5, 8, 9, 10, 11, 12, 13)], y = df.1[1])
## 
## 
## Overall Multicollinearity Diagnostics
## 
##                        MC Results detection
## Determinant |X'X|:         0.0358         0
## Farrar Chi-Square:        39.3971         1
## Red Indicator:             0.3580         0
## Sum of Lambda Inverse:    18.9482         0
## Theil's Method:            2.4540         1
## Condition Number:        143.0638         1
## 
## 1 --> COLLINEARITY is detected by the test 
## 0 --> COLLINEARITY is not detected by the test

Notemos que las variables que menos se correlacionan con el resto son Remuneraciones, Personas afiliadas a servicio de salud, esperanza de vida, años promedio de escolaridad, personal médico y carencias de servicios. Probamos su no-colinearidad con el determinante de su varianza de correlaciones, el “Red indicator” y la suma de lambda inversa. Aunque no pasan otras tres pruebas, las anteriores son suficientes para el futuro PCA que se realizará.

Así que las variables que más aportan son las siete antes mencionadas.

Al ver que muchas de estas variables no aprotaran variabilidad a nuestro indice, decidimos categorizar las variables para obtener visualizaciones que nos ayuden mas.

df.3 %>% ggpairs(columns = c(2:8),upper = list(continuous = wrap('cor',size = 2)),  mapping = aes(color = Desem))
## Warning: Groups with fewer than two data points have been dropped.

## Warning: Groups with fewer than two data points have been dropped.

## Warning: Groups with fewer than two data points have been dropped.

## Warning: Groups with fewer than two data points have been dropped.

## Warning: Groups with fewer than two data points have been dropped.

## Warning: Groups with fewer than two data points have been dropped.

## Warning: Groups with fewer than two data points have been dropped.

Veamos cómo se comportan los datos.

¿Qué grupo de desempleo tiene la remuneración más baja?

Realizamos una gráfica de brazos y caja para conocer la distribución de las remuneraciones para cada nivel de desempleo. Encontramos outliers solo para la categoría de desempleo medio y, cómo era de esperarse, la media más baja de remuneraciones es para la categoría de desempleo alto.

¿Qué grupo de desempleo tiene más varianza en la esperanza de vida? Ahora queremos ver las observaciones de esperanza de vida para cada grupo de desempleados. Encontramos que la CDMX es una región dónde la mayoría de las delegaciones tienen desempleo medio y a su vez la esperanza de vida más variada.

ggplot(df.3,aes(Desem, esp_vida)) + geom_quasirandom()

¿Es el desempleo importante para determinar la esperanza de vida? Parace que no hay una correlación

library(dplyr)
ggplot(df, aes(x=Desem, y=esp_vida, size = Pob, col=Alc)) +
    geom_point(alpha=0.7)

¿Y la remuneración? No hay relación

ggplot(df, aes(x=Remuneracion, y=esp_vida, size = Pob, col=Alc)) +
    geom_point(alpha=0.7)

¿Están relacionadas las carencias? Parece que solo als alimenticias y las de salud, peor no las de servicios.

plot_ly(x=df$C_alim, y=df$C_sal, z=df$C_ser, type="scatter3d", mode="markers", color=df$C_alim)